강화 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

강화 학습은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 행동을 학습하는 머신러닝의 한 분야이다. 마르코프 의사 결정 과정(MDP)으로 모델링되며, 정책, 가치 함수, 탐색과 활용, 벨만 방정식 등의 개념을 사용한다. 강화 학습 알고리즘은 가치 기반, 정책 기반, 액터-크리틱, 모델 기반 방식으로 분류되며, Q-학습, SARSA, DQN, A3C, DDPG, PPO, SAC 등이 대표적이다. 심층 신경망을 활용한 심층 강화 학습은 복잡한 문제에 적용되며, 게임, 로봇 공학, 자율 주행 등 다양한 분야에 활용된다. 그러나 샘플 효율성, 안전성, 일반화 성능, 편향과 공정성 문제 등 해결해야 할 과제도 존재한다.

더 읽어볼만한 페이지

강화 학습 - 시간차 학습
시간차 학습은 미래 보상 예측과 현재 가치 추정치 업데이트를 통해 학습하는 강화 학습 방법으로, 체커 프로그램 개발과 TD-Lambda 알고리즘, TD-Gammon 개발을 거쳐 인공지능, 로보틱스, 추천 시스템, 금융 공학 등 다양한 분야에 응용된다.
강화 학습 - 심층 강화 학습
심층 강화 학습은 심층 신경망을 활용하여 정책이나 가치 함수를 표현하는 강화 학습 방법으로, 딥 러닝 혁명 이후 정책, 가치, Q 함수 학습에 대한 관심이 높아져 아타리 게임 성공과 알파고의 바둑 승리 등을 통해 발전했으며, 로봇 공학, 자율 주행 등 다양한 분야에 적용되고 있다.
신념 수정 - 비단조 논리
비단조 논리는 새로운 정보로 인해 기존 결론이 변경될 수 있는 논리 체계로, 불완전하거나 변동적인 정보를 다루며 현실 세계 추론, 인간 사고, 인공지능 시스템 등에 활용되고, 증명론 및 모델론적으로 연구된다.
신념 수정 - 기대효용가설
기대 효용 이론은 불확실한 상황에서 의사 결정을 설명하기 위해 20세기 초부터 발전해 온 이론으로, 개인의 선호를 수학적으로 모형화하여 효용 함수를 통해 합리적인 의사 결정 과정을 설명하고, 기대 효용을 극대화하는 선택을 한다고 가정하지만, 현실과의 불일치로 인해 비판과 대안 이론이 제시되었다.
기계 학습 알고리즘 - 기댓값 최대화 알고리즘
기계 학습 알고리즘 - 확산 모델
확산 모델은 잡음 추가 및 제거를 통해 데이터의 확률 분포를 학습하고 생성하는 생성 모델로서, DDPM, 점수 기반 모델 등 다양한 변형과 기법들이 개발되어 이미지 및 비디오 생성 분야에서 활용되고 있다.

강화 학습
강화 학습
정의	기계 학습의 한 분야로, 에이전트가 환경과의 상호작용을 통해 보상을 최대화하는 방법을 학습하는 알고리즘이다.
기본 개념	에이전트 환경 행동 상태 보상
학습 목표	환경과의 상호작용을 통해 정책을 최적화하여 누적 보상을 최대화하는 것이다.
주요 알고리즘	Q-러닝 SARSA 시간차 학습
활용 분야	로봇 공학 게임 인공지능 자율 주행 추천 시스템 의료 금융
역사	1980년대부터 연구되었으며, 리처드 서튼이 시간차 학습을 개발하면서 발전했다.
주요 특징	시행착오 학습 지연된 보상 탐험과 활용의 균형 마르코프 결정 프로세스(MDP)를 기반으로 한다.
분류
핵심 요소
에이전트	환경과 상호작용하며 행동을 결정하는 주체이다.
환경	에이전트가 상호작용하는 대상이며, 에이전트에게 상태 정보를 제공한다.
상태	환경의 현재 상태를 나타내는 정보이다.
행동	에이전트가 환경에 대해 수행하는 동작이다.
보상	에이전트의 행동에 대한 피드백으로, 학습의 기준이 된다.
정책	주어진 상태에서 에이전트가 어떤 행동을 해야 하는지를 정의하는 규칙이다.
가치 함수	특정 상태 또는 행동이 얼마나 좋은지를 나타내는 함수이다.
학습 방법
모델 기반 강화 학습	환경의 모델을 학습하여 정책을 결정하는 방법이다.
모델 없는 강화 학습	환경 모델 없이 시행착오를 통해 직접 정책을 학습하는 방법이다.
주요 알고리즘
Q-러닝	가치 함수를 학습하는 대표적인 알고리즘이다.
SARSA	Q-러닝과 유사하지만, 행동을 선택하는 방법에 따라 학습 방식이 달라진다.
시간차 학습	다음 상태의 가치와 현재 상태의 가치를 비교하여 학습하는 방법이다.
정책 경사	정책을 직접 학습하는 방법이다.
심층 강화 학습	심층 신경망을 사용하여 강화 학습을 수행하는 방법이다.
참고 문헌
참고 문헌	Kaelbling, L. P., Littman, M. L., & Moore, A. W. (1996). Reinforcement learning: A survey. Journal of Artificial Intelligence Research, 4, 237-285. van Otterlo, M., & Wiering, M. (2012). Reinforcement Learning and Markov Decision Processes. In Adaptation, Learning, and Optimization (Vol. 12, pp. 3-42). Springer, Berlin, Heidelberg. Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore

2. 역사

강화 학습은 동물 심리학의 과정에서 그 개념이 비롯되었다.^[4]^[5] 예를 들어, 생물학적 뇌는 통증과 허기를 부정적인 강화로, 쾌락과 식사를 긍정적인 강화로 해석하도록 되어있다. 동물은 이러한 보상을 최적화하는 행동을 학습하는데, 이는 강화 학습의 기본 원리와 유사하다.

강화 학습(RL) 시나리오의 일반적인 구조: 에이전트는 환경에서 행동을 취하고, 이는 보상과 상태 표현으로 해석되어 에이전트에 다시 전달된다.

기본적인 강화 학습은 마르코프 결정 과정으로 모델링된다. 에이전트는 매 시간 단계

t

에서 현재 상태

S_t

와 보상

R_t

를 받는다. 그리고 가능한 행동 집합에서 행동

A_t

를 선택하여 환경에 전달한다. 그러면 환경은 새로운 상태

S_{t+1}

로 이동하고, 이 전이

(S_t, A_t, S_{t+1})

에 따른 보상

R_{t+1}

이 결정된다. 강화 학습 에이전트의 목표는 기대 누적 보상을 최대화하는 정책을 학습하는 것이다.

강화 학습은 게임 이론, 제어 이론, 작전 연구, 정보 이론 등 여러 분야에서 연구되고 있다. 최적 제어 이론에서는 주로 최적 해의 존재와 특성, 그리고 정확한 계산 알고리즘에 관심을 둔다. 반면, 강화 학습은 환경의 수학적 모델이 없는 경우의 학습과 근사에 더 중점을 둔다.

강화 학습은 성능 최적화를 위해 표본을 사용하고, 대규모 환경을 처리하기 위해 함수 근사를 사용한다. 이 덕분에 다음과 같은 상황에서 대규모 환경에 적용될 수 있다.

환경 모델은 알려져 있지만 해석적 해를 구할 수 없는 경우
환경의 시뮬레이션 모델만 제공되는 경우 (시뮬레이션 기반 최적화)^[10]
환경과 상호 작용을 통해서만 정보를 수집할 수 있는 경우

처음 두 가지는 계획 문제로 볼 수 있지만, 강화 학습은 이를 기계 학습 문제로 변환한다.

강화 학습의 주요 연구 주제는 다음과 같다.

액터-크리틱 구조^[27]
액터-크리틱-배경 구조^[3]
인간 피드백^[30]
내적 동기
다중 에이전트/분산 강화 학습^[32]
전이 학습^[40]

2. 1. 초기 역사

1950년대 벨만 방정식 등 동적 계획법의 발전이 강화학습의 기반을 마련했다.^[79] 1980년대 시간차 학습(TD learning) 알고리즘이 개발되면서 강화학습이 독자적인 분야로 발전하기 시작했다.^[80]

2. 2. 발전 과정

강화 학습에서 '''탐색'''(exploration)과 '''활용'''(exploitation)의 균형 문제는 다팔 밴딧 문제와 Burnetas and Katehakis(1997)의 유한 상태 공간 MDP 연구를 통해 심도 있게 연구되었다.^[79]

정교한 탐색 메커니즘은 강화 학습에 필수적이다. 무작위로 행동을 선택하면 성능이 저하되기 때문이다. (소규모) 유한 MDP의 경우에는 비교적 잘 이해되고 있지만, 상태 수에 따라 효과적으로 확장되거나 상태 공간이 무한한 문제에 대응하는 알고리즘은 부족하여, 간단한 탐색 방법이 주로 사용된다.

이러한 방법 중 하나는 ε-탐욕법(ε-greedy)이다. 0 < ε < 1은 탐색과 활용의 정도를 조절하는 매개변수이다. 이 방법에서는 확률 1-ε로 활용이 선택되어, 에이전트는 장기적으로 가장 효과적일 것으로 예상되는 행동을 선택한다. 반면, 확률 ε로는 탐색이 선택되어 행동이 무작위로 선택된다. ε는 보통 고정된 값이지만, 일정에 따라 점차 줄이거나, 휴리스틱(경험적 방법)에 기반하여 조정할 수도 있다.^[80]

2. 3. 한국에서의 강화학습 연구

한국에서는 1990년대부터 대학교와 연구소를 중심으로 강화학습 연구가 시작되었다. 2000년대 이후에는 게임 AI 개발에 강화학습이 활발하게 적용되면서 관련 연구가 더욱 활성화되었다. 최근에는 자율주행, 로봇 제어 등 다양한 분야로 연구 범위가 확대되고 있다.

3. 기본 원리

강화 학습은 마르코프 결정 과정(MDP)을 기반으로 하며, 에이전트가 환경과 상호작용하며 누적 보상을 최대화하는 최적의 정책을 학습하는 것을 목표로 한다.

강화 학습은 지도 학습과 달리 온라인 수행에 중점을 두며, 아직 조사되지 않은 영역을 탐험하는 것(탐험)과 이미 알고 있는 지식을 이용하는 것(활용) 사이의 균형을 잡는 것이 중요하다.

강화 학습 모델은 환경 상태 집합 ( $S$ ), 행동 집합 ( $A$ ), 포상 집합 ( $\in \mathbb{R}$ )으로 구성된다. 매 시점 $t$ 에 에이전트는 자신의 상태 $s_t \in S$ 와 가능한 행동 $A(s_t)$ 를 가진다. 에이전트가 특정 행동 $a \in A(s_t)$ 를 취하면, 환경으로부터 새로운 상태 $s_{t+1}$ 와 포상 $r_{t+1}$ 을 받는다. 이러한 상호작용을 통해 강화 학습 에이전트는 누적된 포상값 $R$ 을 최대화하는 정책( $\pi: S \rightarrow A$ )을 개발한다.

종료 상태가 있는 MDP에서는 $R=r_0+r_1+\cdots+r_n = \sum_{t=1}^n r_t$ 이고, 그렇지 않은 MDP에서는 $R = \sum_{t=1}^n \gamma^t r_t$ 가 된다. 여기서 $\gamma$ 는 미래의 포상이 현재에 얼마나 가치 있는지를 나타내는 할인율(discount factor)로, 0과 1 사이의 값이다.

강화 학습은 그 일반성 때문에 게임 이론, 제어 이론, 작전 연구, 정보 이론 등 다양한 분야에서 연구되고 있다. 작전 연구 및 제어 분야에서는 강화 학습을 '근사 동적 계획법' 또는 '신경 동적 계획법'이라고 부르기도 한다.

기본적인 강화 학습은 마르코프 결정 과정으로 모델링되며, 에이전트는 이산적인 시간 단계에서 환경과 상호 작용한다. 에이전트는 각 시간 단계에서 현재 상태와 보상을 받고, 행동을 선택하여 환경에 전달한다. 환경은 새로운 상태로 이동하고, 전이와 관련된 보상이 결정된다. 강화 학습 에이전트의 목표는 기대 누적 보상을 최대화하는 정책을 학습하는 것이다.

문제를 마르코프 결정 과정으로 공식화할 때는 에이전트가 현재 환경 상태를 직접 관찰한다고 가정하며, 이를 '완전 관측 가능성'이라고 한다. 반면 에이전트가 일부 상태만 관찰하거나 관찰된 상태가 노이즈에 의해 손상된 경우에는 '부분 관측 가능성'을 가지며, 부분 관측 가능 마르코프 결정 과정으로 공식화해야 한다.

에이전트의 성능은 최적으로 행동하는 에이전트와 비교하여 후회(regret)라는 개념으로 평가할 수 있다. 최적으로 행동하기 위해 에이전트는 행동의 장기적인 결과, 즉 미래의 보상을 최대화하는 방향으로 학습해야 한다.

강화 학습은 에너지 저장,^[6] 로봇 제어,^[7] 태양광 발전기,^[8] 백개먼, 체커, 바둑(알파고), 자율 주행 시스템^[9] 등 다양한 문제에 성공적으로 적용되어 왔다.

강화 학습을 강력하게 만드는 두 가지 요소는 성능 최적화를 위한 표본의 사용과 대규모 환경 처리를 위한 함수 근사의 사용이다. 이러한 요소들 덕분에 강화 학습은 환경의 모델은 알려져 있지만 해석적 해를 사용할 수 없거나, 환경의 시뮬레이션 모델만 제공되거나, 환경에 대한 정보를 수집하는 유일한 방법이 환경과 상호 작용하는 경우와 같은 상황에서 대규모 환경에 사용될 수 있다.^[10]

3. 1. 마르코프 결정 과정 (MDP)

마르코프 결정 과정(MDP)은 순차적 의사 결정 문제를 모델링하기 위한 수학적 프레임워크이다. MDP는 상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(Transition Probability), 할인율(Discount Factor)로 구성된다. 강화 학습에서 에이전트는 현재 상태에서 행동을 선택하고, 환경은 다음 상태와 보상을 에이전트에게 제공한다.^[75]^[76]

기본적인 강화 학습은 마르코프 결정 과정으로 모델링되며, 다음과 같이 구성된다.

환경 및 에이전트 상태의 집합(상태 공간), $\mathcal{S}$
에이전트의 행동 집합(행동 공간), $\mathcal{A}$
$P_a(s,s')=\Pr(S_{t+1}=s'\mid S_t=s, A_t=a)$ : 행동 $a$ 하에서 시간 $t$ 에 상태 $s$ 에서 상태 $s'$ 로의 전이 확률.
$R_a(s,s')$ : 행동 $a$ 하에서 $s$ 에서 $s'$ 로 전이 후의 즉각적인 보상.

강화 학습 에이전트는 이산적인 시간 단계에서 환경과 상호 작용한다. 각 시간

t

에서 에이전트는 현재 상태

S_t

와 보상

R_t

를 받는다. 그런 다음 사용 가능한 행동 집합에서 행동

A_t

를 선택하고, 이는 이후 환경으로 전송된다. 환경은 새로운 상태

S_{t+1}

로 이동하고 전이

(S_t, A_t, S_{t+1})

와 관련된 보상

R_{t+1}

이 결정된다.

문제를 마르코프 결정 과정으로 공식화하는 것은 에이전트가 현재 환경 상태를 직접 관찰한다고 가정한다. 이 경우 문제는 '완전 관측 가능성'을 갖는다고 한다. 에이전트가 상태의 하위 집합에만 접근하거나 관찰된 상태가 잡음에 의해 손상된 경우 에이전트는 '부분 관측 가능성'을 가지며, 공식적으로 문제는 부분 관측 가능 마르코프 결정 과정으로 공식화되어야 한다.

3. 2. 주요 개념

마르코프 결정 과정(MDP)으로 표현되는 강화 학습은 온라인 수행에 중점을 두며, 탐험(exploration)과 활용(exploitation) 사이의 균형을 맞추는 것이 중요하다.^[11] 탐험은 아직 조사되지 않은 영역을 탐색하는 것이고, 활용은 이미 알고 있는 지식을 이용하는 것이다.

강화 학습 모델은 다음과 같이 구성된다.

환경 상태 집합: $S$
행동 집합: $A$
보상 집합: $(\in \mathbb{R})$

매 시점

t

에 에이전트는 상태

s_t \in S

와 가능한 행동

A(s_t)

를 가진다. 에이전트가 행동

a \in A(s_t)

를 취하면, 환경으로부터 새로운 상태

s_{t+1}

와 보상

r_{t+1}

을 받는다. 이 상호작용을 기반으로, 강화 학습 에이전트는 누적 보상값

R

을 최대화하는 정책(policy)

\pi: S \rightarrow A

를 개발한다.

정책(Policy): 각 상태에서 에이전트가 어떤 행동을 선택할지 결정하는 규칙이다. 최적의 정책은 장기적인 보상을 최대화한다.
가치 함수(Value Function): 특정 상태 또는 상태-행동 쌍의 장기적인 가치를 나타내는 함수이다. 주어진 상태가 얼마나 "좋은지"를 추정한다.^[13] 상태 가치 함수 $V_\pi(s)$ 는 상태 $s$ 에서 시작하여 정책 $\pi$ 를 따를 때의 기대 할인 수익으로 정의된다.

:

V_\pi(s) = \operatorname \mathbb{E}[G\mid S_0 = s] = \operatorname \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t R_{t+1}\mid S_0 = s\right],

탐험과 활용: 강화 학습 에이전트는 새로운 행동을 시도하는 탐험과 이미 학습한 최적 행동을 선택하는 활용 사이의 균형을 유지해야 한다. $\varepsilon$ -탐욕적 방법은 이러한 균형을 조절하는 방법 중 하나이다.^[12]
모델: 환경의 작동 방식을 나타내는 요소로, 에이전트가 행동의 결과를 예측하고 계획을 수립하는 데 사용된다.

강화 학습은 게임 이론, 제어 이론, 작전 연구 등 다양한 분야에서 연구되고 있다.^[75]^[76]

3. 3. 벨만 방정식 (Bellman Equation)

Bellman Equation^영어은 가치 함수를 재귀적으로 표현하는 방정식이다. 최적 가치 함수는 벨만 최적 방정식을 만족한다. 강화학습 알고리즘은 벨만 방정식을 이용하여 최적 가치 함수 또는 최적 정책을 찾는다.^[13]

상태가치함수(state-value function)

V_\pi(s)

는 상태

s

(

S_0 = s

)에서 시작하여 정책

\pi

를 계속 따를 경우의 기대할인수익(expected discounted return)으로 정의된다. 따라서 상태가치함수는 어떤 상태에 있는 것이 "얼마나 좋은가"를 추정하는 것이다.^[81]

:

V_\pi(s) = \operatorname \mathbb{E}[G \mid S_0 = s] = \operatorname \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t R_{t+1} \mid S_0 = s\right]

여기서 확률변수

G

는 할인수익(discounted return)을 나타내며, 보상(reward)에 할인율(discount rate)

\gamma

을 곱한 미래의 할인보상(discounted reward)의 합으로 정의된다.

:

G=\sum_{t=0}^\infty \gamma^t R_{t+1} = R_1 + \gamma R_2 + \gamma^2 R_3 + \dots

여기서 보상

R_{t+1}

는 상태

S_t

에서

S_{t+1}

로 전이할 때의 보상이다. 할인율은

0<\gamma<1

로 설정되며, 먼 미래의 보상일수록 가중치는 작아진다. 할인율의 개념은 경제학에서도 사용된다.

최적성을 공식적으로 정의하기 위해, 정책

\pi

의 상태-가치를 다음과 같이 정의한다.

:

V^{\pi} (s) = \operatorname \mathbb{E}[G\mid s,\pi]

여기서

G

는 초기 상태

s

에서

\pi

를 따르는 것과 관련된 할인된 수익을 나타낸다.

V^*(s)

를

\pi

가 변경될 수 있을 때

V^\pi(s)

의 가능한 최대 상태-가치로 정의하면,

:

V^*(s) = \max_\pi V^\pi(s)

각 상태에서 이러한 최적 상태-가치를 달성하는 정책을 '최적 정책'이라고 한다.

상태-가치는 최적성을 정의하기에 충분하지만, 행동-가치를 정의하는 것이 유용하다. 상태

s

, 행동

a

, 정책

\pi

가 주어지면,

\pi

하에서 쌍

(s,a)

의 행동-가치는 다음과 같이 정의된다.

:

Q^\pi(s,a) = \operatorname \mathbb{E}[G\mid s,a,\pi]

여기서

G

는 상태

s

에서 먼저 행동

a

를 취하고 그 후에

\pi

를 따르는 것과 관련된 무작위 할인 수익을 나타낸다.

마르코프 의사결정 과정 이론은

\pi^*

가 최적 정책이라면, 각 상태

s

에서 가장 높은 행동-가치를 가진 행동을

Q^{\pi^*}(s,\cdot)

에서 선택함으로써 최적으로 행동한다는 것을 명시한다. 이러한 최적 정책의 '행동-가치 함수'(

Q^{\pi^*}

)를 '최적 행동-가치 함수'라고 하며 일반적으로

Q^*

로 표시한다. 요약하자면, 최적 행동-가치 함수만 알아도 최적으로 행동하는 방법을 알 수 있다.

값 반복과 정책 반복은 최적 행동 가치 함수를 계산하는 기본적인 방법이다.

4. 강화 학습 알고리즘

강화 학습 알고리즘은 크게 가치 기반, 정책 기반, 액터-크리틱, 모델 기반으로 나눌 수 있다. 강화 학습은 게임 이론, 제어 이론, 작전 연구, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 스웜 인텔리전스, 통계학 등 여러 분야에서 연구된다.

기본적으로 강화 학습 문제는 마르코프 결정 과정(MDP)으로 표현되며, 동적 계획법과 관련이 깊다. 강화 학습은 온라인 수행에 중점을 두고, 탐험과 이용 사이의 균형을 잡는 것이 중요하다.

강화 학습 모델은 환경 상태 집합( $S$ ), 행동 집합( $A$ ), 포상 집합( $\in \mathbb{R}$ )으로 구성된다. 에이전트는 매 시점 $t$ 에 상태( $s_t \in S$ )와 가능한 행동( $A(s_t)$ )을 가지고 행동하며, 환경으로부터 새로운 상태( $s_{t+1}$ )와 포상( $r_{t+1}$ )을 받는다. 이 상호작용을 기반으로 에이전트는 누적 포상값( $R$ )을 최대화하는 정책( $\pi: S \rightarrow A$ )을 개발한다.

강화 학습의 목적은 에이전트가 즉각적인 보상에서 누적되는 보상 함수 또는 강화 신호를 극대화하는 최적(또는 거의 최적) 정책을 학습하는 것이다. 이는 동물 심리학의 과정과 유사하다.^[4]^[5]

문제를 마르코프 결정 과정으로 공식화하는 것은 에이전트가 현재 환경 상태를 직접 관찰한다고 가정한다. 부분 관측 가능성은 부분 관측 가능 마르코프 결정 과정으로 공식화해야 한다.

에이전트의 성능은 최적 행동 에이전트와 비교되며, 이 차이는 후회 개념을 생성한다. 최적 행동을 위해 에이전트는 행동의 장기적 결과에 대해 추론해야 하지만, 즉각적인 보상은 부정적일 수 있다.

강화 학습은 에너지 저장,^[6] 로봇 제어,^[7] 태양광 발전기,^[8] 백개먼, 체커, 바둑(알파고), 자율 주행 시스템^[9] 등에 적용되었다.

강화 학습을 강력하게 만드는 두 가지 요소는 성능 최적화를 위한 표본 사용과 대규모 환경 처리를 위한 함수 근사 사용이다.

상태가 관측 가능하다고 가정해도, 과거 경험으로 어떤 행동이 높은 누적 보상으로 이어지는지 알아내는 문제가 남는다. 에이전트의 행동 선택은 ''정책''으로 모델링된다.

: $\pi: \mathcal{A} \times \mathcal{S} \rightarrow [0,1]$

: $\pi(a,s) = \Pr(A_t = a \mid S_t = s)$

정책 사상은 상태 $s$ 에서 행동 $a$ 를 취할 확률을 제공한다.^[13] 결정적 정책도 존재한다.

강화 학습 알고리즘은 가치 기반, 정책 기반, 액터-크리틱, 모델 기반으로 분류할 수 있다.

가치 기반 알고리즘: 가치 기반 알고리즘은 가치 함수를 추정하여 최적 정책을 간접적으로 찾는다.
정책 기반 알고리즘: 정책 기반 알고리즘은 정책을 직접 최적화한다.
액터-크리틱 알고리즘: 액터-크리틱 알고리즘은 가치 함수와 정책을 모두 학습한다.
모델 기반 알고리즘: 모델 기반 알고리즘은 환경 모델을 학습하고, 이를 이용하여 계획을 수행한다.

알고리즘	설명	학습 전략 분리성	행동 공간	상태 공간	연산자 통계량
몬테카를로 방법	순차 방문 몬테카를로 방법	어느 쪽도	이산	이산	상태/행동 가치 표본 평균
TD 학습	상태-행동-보상-상태	온폴리시	이산	이산	상태 가치
Q 학습	상태-행동-보상-상태	오프폴리시	이산	이산	행동 가치
SARSA	상태-행동-보상-상태-행동	온폴리시	이산	이산	행동 가치
Q 학습(λ)	상태-행동-보상-적격성 추적 포함 상태	오프폴리시	이산	이산	행동 가치
SARSA(λ)	상태-행동-보상-상태-행동, 적격성 추적	온폴리시	이산	이산	행동 가치
DQN	딥 Q 네트워크	오프폴리시	이산	연속	행동 가치
DDPG	딥 결정론적 정책 경사	오프폴리시	연속	연속	행동 가치
A3C	비동기적 이점 행위자-비평가 알고리즘	온폴리시	연속	연속	이점 (=행동 가치 - 상태 가치)
NAF	정규화 이점 함수 사용 Q 학습	오프폴리시	연속	연속	이점
TRPO	신뢰 영역 정책 최적화	온폴리시	연속	연속	이점
PPO	근위 정책 최적화	온폴리시	연속	연속	이점
TD3	쌍둥이 지연 딥 결정론적 정책 경사법	오프폴리시	연속	연속	행동 가치
SAC	소프트 액터-크리틱 방법	오프폴리시	연속	연속	이점
DSAC	분포 소프트 액터-크리틱 방법	오프폴리시	연속	연속	이점 분포

최근 연구: 결합 강화 학습, 심층 강화 학습, 적대적 심층 강화 학습, 퍼지 강화 학습.

4. 1. 가치 기반 알고리즘 (Value-Based Algorithm)

가치 함수 접근법은 할인된 수익의 기댓값

\operatorname \mathbb{E}[G]

을 추정하여, 이를 바탕으로 최적 정책을 간접적으로 찾는 방법이다. 일반적으로 "현재" 정책(on-policy) 또는 최적 정책(off-policy)을 사용한다.

이 방법들은 마르코프 결정 과정 이론에 기반한다. 여기서 최적 정책은 어떤 초기 상태에서도 최고의 기대 할인 수익을 달성하는 정책을 의미한다. 즉, 초기 분포와 관계없이 항상 최적의 결과를 낸다.

최적성을 정의하기 위해 정책

\pi

의 상태 가치(state-value)를 다음과 같이 정의한다.

:

V^{\pi} (s) = \operatorname \mathbb{E}[G\mid s,\pi]

여기서

G

는 초기 상태

s

에서

\pi

를 따를 때 얻는 할인된 수익을 나타낸다. 그리고

V^*(s)

를

\pi

가 변할 때

V^\pi(s)

의 가능한 최대 상태 가치로 정의한다.

:

V^*(s) = \max_\pi V^\pi(s).

모든 상태에서 이러한 최적 상태 가치를 달성하는 정책을 ''최적 정책''이라고 한다. 최적 정책은 기대 할인 수익을 극대화하는 정책이기도 하다.

상태 가치는 최적성을 정의하기에 충분하지만, 행동 가치(action-value)를 정의하면 더 유용하다. 상태

s

, 행동

a

, 정책

\pi

가 주어지면,

\pi

하에서 쌍

(s,a)

의 행동 가치는 다음과 같이 정의된다.

:

Q^\pi(s,a) = \operatorname \mathbb{E}[G\mid s,a,\pi],\,

여기서

G

는 상태

s

에서 먼저 행동

a

를 취하고 그 후

\pi

를 따를 때 얻는 무작위 할인 수익을 나타낸다.

마르코프 결정 과정 이론에 따르면,

\pi^*

가 최적 정책이라면, 각 상태

s

에서 가장 높은 행동 가치를 가진 행동을

Q^{\pi^*}(s,\cdot)

에서 선택함으로써 최적으로 행동할 수 있다. 이러한 최적 정책의 ''행동 가치 함수''(

Q^{\pi^*}

)를 ''최적 행동 가치 함수''라고 하며, 보통

Q^*

로 표시한다. 즉, 최적 행동 가치 함수만 알면 최적으로 행동하는 방법을 알 수 있다.

마르코프 결정 과정에 대한 완전한 지식을 가정하면, 최적 행동 가치 함수를 계산하는 두 가지 기본적인 방법은 값 반복과 정책 반복이다. 두 알고리즘 모두

Q^*

로 수렴하는 함수

Q_k

(

k=0,1,2,\ldots

)의 시퀀스를 계산한다. 하지만, 이러한 함수를 계산하려면 전체 상태 공간에 대한 기대값을 계산해야 하므로, 매우 작은 마르코프 결정 과정을 제외하고는 실용적이지 않다. 강화 학습 방법에서는 샘플에 대한 평균을 구하고 함수 근사 기법을 사용하여 큰 상태-행동 공간에 걸쳐 가치 함수를 나타내는 문제를 해결한다.

몬테카를로 방법은 정책 반복법을 모방한 알고리즘에 사용될 수 있다. 정책 반복법은 정책 평가와 정책 개선의 두 단계로 구성된다. 몬테카를로 방법은 정책 평가 단계에서 사용된다. 이 단계의 목표는 정상적이고 결정론적인 정책

\pi

가 주어졌을 때, 모든 상태-행동 쌍

(s,a)

에 대한 함수값

Q^\pi(s,a)

(또는 그에 대한 적절한 근사값)을 계산하는 것이다. 여기서는 단순화를 위해 MDP가 유한하고, 행동 가치를 저장할 만한 충분한 메모리가 있으며, 문제가 에피소드적이고 각 사건 후에 무작위 초기 상태에서 새로운 사건이 시작된다고 가정한다. 그리고 주어진 상태-행동 쌍

(s,a)

의 행동 가치 추정치는

(s,a)

에서 샘플링된 수익을 시간 경과에 따라 평균화함으로써 계산할 수 있다. 충분한 시간이 있다면, 이 절차를 통해 행동 가치 함수

Q^\pi

의 정확한 추정치

Q

를 구성할 수 있다.

정책 개선 단계에서는

Q

에 대한 탐욕적 정책을 계산하여 다음 정책을 얻는다. 상태

s

가 주어졌을 때, 이 새로운 정책은

Q(s,\cdot)

를 최대화하는 하나의 행동을 반환한다. 실제로는 지연 평가에 의해 최대화 행동의 계산을 필요할 때까지 미룰 수 있다.

이 방법의 문제점은 다음과 같다.

# 최적이 아닌 정책을 평가하는 데 시간이 너무 오래 걸릴 수 있다.

# 샘플링이 비효율적으로 수행된다(긴 궤적이 궤적을 시작한 단일 상태-행동 쌍의 추정치만 개선한다).

# 궤적상의 수익이 분산이 크다(high variance)면 수렴이 느려진다.

# 에피소드적 문제(episodic problems)에만 유효하다.

# 소규모의 유한한 MDP에서만 사용할 수 있다.

첫 번째 문제는 가치가 수렴하기 전에 절차가 정책을 변경할 수 있도록 함으로써 해결할 수 있다. 하지만 수렴을 방해하여 문제가 될 가능성도 있다. 현재 대부분의 알고리즘은 이를 수행하며, 일반화 정책 반복이라는 종류의 알고리즘을 만들어낼 수 있다. 많은 액터-크리틱 방법이 이 범주에 속한다.

두 번째 문제는 궤적이 그 안의 임의의 상태-행동 쌍에 관여할 수 있도록 함으로써 수정할 수 있다. 이것은 세 번째 문제에도 어느 정도 효과가 있지만, 보상의 분산이 높은 경우 더 나은 해결책은 리처드 서튼이 명명한 시간차 학습(TD 학습)^[82]이며, 이는 재귀적 벨만 방정식에 기반한다.

TD 방법의 계산 방법에는 증분법(각 전이 후에 메모리를 변경하고 전이를 버리는 방법) 또는 배치법(전이를 배치 처리하고, 배치를 기반으로 추정값을 한 번 계산하는 방법)이 있다. 최소 제곱 시간차 방법과 같은 배치법^[83]은 샘플 내 정보를 더 효율적으로 활용할 수 있는 가능성이 있지만, 증분법은 배치법이 계산량 및 메모리 복잡성 때문에 실행 불가능한 경우 선택되는 유일한 방법이 된다. 이 두 가지 방법을 결합하는 기법도 있다. 시간차에 기반한 방법은 네 번째 문제도 극복한다.

TD에 고유한 또 다른 문제는 재귀적인 벨만 방정식에 대한 의존성에서 기인한다. 대부분의 TD 방법에는

\lambda

(람다) 매개변수

(0\le \lambda\le 1)

가 있으며, 벨만 방정식에 의존하지 않는 몬테카를로 방법과 벨만 방정식에 완전히 의존하는 기본적인 TD 방법 사이를 연속적으로 보간할 수 있다. 이를 통해 이 문제를 효과적으로 완화할 수 있다.

다섯 번째 과제를 해결하기 위해 함수 근사법이 제안되었다. 선형 함수 근사는 각 상태-행동 쌍에 유한 차원 벡터를 할당하는 매핑 φ에서 시작한다. 그리고 상태-행동 쌍 (s, a)의 행동 가치는 φ(s, a)의 성분을 어떤 '가중치' θ로 선형 결합하여 얻는다.

:

Q(s, a) = \Sigmaᵢ₌₁ᵈ θᵢφᵢ(s, a)

그 후, 알고리즘은 각 상태-행동 쌍에 관련된 값이 아니라 가중치를 조정한다. 비모수 통계학의 개념에 기반한 방법(고유한 특징을 구축하는 것을 볼 수 있다)이 연구되고 있다.

또한, 값의 반복을 출발점으로 하여 Q러닝 알고리즘과 그 많은 변형을 만들 수 있다.^[84] 행동 가치 함수 Q를 표현하기 위해 신경망을 사용하는 심층 Q러닝을 포함하여 확률적 탐색 문제에 대한 다양한 응용이 가능하다.^[85]

행동 가치를 사용하는 경우의 문제는 경쟁하는 행동 가치를 고정밀도로 추정해야 할 수 있다는 점이며, 수익에 노이즈가 많은 경우에는 얻기 어려울 수 있다. 하지만 이 문제는 시간차 방법으로 어느 정도 완화된다. 소위 호환 함수 근사법을 사용하면 일반성과 효율성이 저하된다.

대표적인 가치 기반 강화 학습 알고리즘
알고리즘	설명	정책	행동 공간	상태 공간
Q-학습	대표적인 오프라인 학습 알고리즘으로, 행동 가치 함수(Q-function)를 학습한다.	오프정책	이산형	이산형
SARSA	온라인 학습 알고리즘으로, 현재 정책에 따라 행동을 선택하고 Q-function을 업데이트한다.	온정책	이산형	이산형
DQN	심층 신경망을 사용하여 Q-function을 근사하는 방법으로, 복잡한 문제에 적용 가능하다.	오프정책	이산형	연속형

4. 2. 정책 기반 알고리즘 (Policy-Based Algorithm)

정책 기반 알고리즘은 정책을 직접 최적화하는 방식이다. 대표적인 예로 REINFORCE 알고리즘이 있다.
REINFORCE 알고리즘REINFORCE 알고리즘은 정책 경사(Policy Gradient)를 이용하여 정책을 업데이트한다. 정책 경사는 정책의 성능을 나타내는 함수의 기울기를 의미하며, 이 기울기를 따라 정책을 업데이트하면 더 좋은 정책을 얻을 수 있다.^[19]

정책 경사 방법은 유한 차원(매개변수) 공간에서 정책 공간으로 매핑하는 것으로 시작한다. 매개변수 벡터 θ가 주어지면, πθ를 θ와 관련된 정책이라 하고, 성능 함수를 ρ(θ) = ρπθ로 정의한다. 온화한 조건에서 이 함수는 매개변수 벡터 θ의 함수로 미분 가능하다. ρ의 기울기가 알려져 있다면, 경사 상승법을 사용할 수 있다. 기울기에 대한 해석적 표현은 사용할 수 없으므로, 잡음이 있는 추정치만 사용할 수 있다. 이러한 추정치는 여러 가지 방법으로 구성할 수 있으며, 윌리엄스(Williams)의 REINFORCE 방법^[19]과 같은 알고리즘을 생성한다.

4. 3. 액터-크리틱 알고리즘 (Actor-Critic Algorithm)

액터-크리틱 알고리즘은 가치 함수와 정책을 모두 학습하는 강화 학습 방법이다. 가치 함수(크리틱)는 현재 상태의 좋고 나쁨을 평가하고, 정책(액터)은 각 상태에서 어떤 행동을 할지 결정한다. 이 두 요소는 서로 상호작용하며 학습 과정에서 성능을 개선한다.

A3C (Asynchronous Advantage Actor-Critic): 여러 개의 에이전트(스레드)가 각자 환경과 상호작용하며 비동기적으로 학습하는 방식이다. 각 에이전트는 경험을 통해 얻은 정보를 중앙 신경망에 업데이트하고, 중앙 신경망은 다시 각 에이전트의 학습에 영향을 준다. 이러한 비동기 학습은 데이터 간 상관관계를 줄이고, 학습 속도와 효율성을 높인다.^[21]

DDPG (Deep Deterministic Policy Gradient): 연속적인 행동 공간(예: 로봇 관절의 각도)에 적용 가능한 알고리즘이다. DDPG는 결정적 정책(Deterministic Policy)을 사용하는데, 이는 각 상태에서 하나의 최적 행동을 선택하는 방식이다. 심층 신경망(Deep Neural Network)을 사용하여 가치 함수와 정책을 근사하며, 안정적인 학습을 위해 여러 기법(예: 리플레이 버퍼, 타겟 네트워크)을 활용한다.^[21]

PPO (Proximal Policy Optimization): 안정적이고 효율적인 정책 업데이트를 제공하는 알고리즘이다. PPO는 정책의 급격한 변화를 제한하여 학습 안정성을 높이고, 샘플 효율성을 개선하여 더 적은 데이터로도 좋은 성능을 낼 수 있도록 한다. TRPO와 유사한 목표를 가지지만, 구현이 더 간단하고 일반적인 환경에서 더 나은 성능을 보이는 경향이 있다.^[21]

액터-크리틱 알고리즘 종류
알고리즘	정책	행동 공간	특징
A3C	온정책	이산형	비동기 학습, 효율성
DDPG	오프정책	연속형	결정적 정책, 심층 신경망
PPO	온정책	연속형/이산형	안정적 업데이트, 샘플 효율성

4. 4. 모델 기반 알고리즘 (Model-Based Algorithm)

모델 기반 강화 학습 알고리즘은 환경의 모델을 학습하고, 이를 이용하여 계획(Planning)을 수행하는 방식이다. 즉, 에이전트는 환경이 어떻게 작동하는지에 대한 모델을 만들고, 이 모델을 사용하여 어떤 행동을 할지 결정한다. Dyna 알고리즘이 이러한 모델 기반 알고리즘의 한 예시이다.^[90]

모델 기반 방법은 가치 함수를 업데이트하는 것 외에도 다양한 방식으로 모델을 활용할 수 있다.^[92] 예를 들어, 모델 예측 제어(Model predictive control)에서는 모델을 사용하여 행동을 직접 업데이트하는 방식을 사용한다.^[92]

모델 기반 강화 학습은 다음과 같은 상황에서 유용하다.

환경의 모델은 알려져 있지만, 해석적인 해(analytic solution)를 구할 수 없는 경우
환경의 시뮬레이션 모델만 주어지는 경우 (시뮬레이션 기반 최적화)^[10]
환경과 상호작용하는 것만이 정보를 얻을 수 있는 유일한 방법인 경우

처음 두 가지는 계획 문제로 볼 수 있지만, 마지막은 진정한 학습 문제로 간주된다. 강화 학습은 이 두 가지 계획 문제를 모두 기계 학습 문제로 변환한다.

Dyna 알고리즘과 같이, 경험으로부터 모델을 학습하고 실제 전이 외에 더 많은 모델링된 전이를 가치 함수에 제공할 수 있다.^[90] 이러한 방법은 비모수적 모델로 확장될 수 있는데, 예를 들어 전이를 단순히 저장하고 학습 알고리즘에 "재생"시키는 방법이 있다.^[91]

5. 심층 강화 학습

심층 강화 학습(Deep Reinforcement Learning, DRL)은 강화 학습과 심층 신경망을 결합한 방법으로, 이미지나 자연어 처리와 같이 복잡한 문제를 해결하는 데 효과적이다.^[110]

Google 딥마인드(DeepMind)가 아타리 2600 게임을 위해 개발한 심층 Q-네트워크(Deep Q-Network, DQN)는 심층 강화 학습의 대표적인 예시이다. DQN은 상태 공간을 명시적으로 설계하지 않고 강화 학습을 확장하여 주목받았다.^[111]

다음은 주요 심층 강화 학습 알고리즘이다.

알고리즘	설명	정책	행동 공간	상태 공간	연산자
DQN	심층 Q 네트워크	오프정책	이산형	연속형	행동-가치
DDPG	심층 결정적 정책 경사(Deep Deterministic Policy Gradient)	오프정책	연속형	연속형	행동-가치
A3C	비동기적 이점 행위자-비평가 알고리즘(Asynchronous Advantage Actor-Critic Algorithm)	온정책	이산형	연속형	이점 (=행동-가치 - 상태-가치)
TRPO	신뢰 영역 정책 최적화(Trust Region Policy Optimization)	온정책	연속형 또는 이산형	연속형	이점
PPO	근접 정책 최적화(Proximal Policy Optimization)	온정책	연속형 또는 이산형	연속형	이점
TD3	쌍둥이 지연 심층 결정적 정책 경사(Twin Delayed Deep Deterministic Policy Gradient)	오프정책	연속형	연속형	행동-가치
SAC	소프트 행위자-비평가(Soft Actor-Critic)	오프정책	연속형	연속형	이점
DSAC^[41]^[42]^[43]	분포적 소프트 행위자 비평가(Distributional Soft Actor Critic)	오프정책	연속형	연속형	행동-가치 분포

6. 강화 학습의 응용

강화 학습은 게임 이론, 제어 이론, 작전 연구, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 스웜 인텔리전스, 통계학 등 여러 분야에서 연구되고 있다. 작전 연구 및 제어 분야에서는 '근사 동적 계획법' 또는 '신경 동적 계획법'이라고도 불린다. 최적 제어 이론에서도 강화 학습과 관련된 문제들을 연구하지만, 주로 최적 해의 존재와 특성, 정확한 계산 알고리즘에 집중하며 학습이나 근사에는 상대적으로 관심이 적다.

기본적인 강화 학습은 마르코프 결정 과정으로 모델링되며, 다음 요소를 포함한다.

환경 및 에이전트 상태 집합 (상태 공간): $\mathcal{S}$
에이전트 행동 집합 (행동 공간): $\mathcal{A}$
상태 전이 확률: $P_a(s,s')=\Pr(S_{t+1}=s'\mid S_t=s, A_t=a)$ (행동 $a$ 를 취했을 때 상태 $s$ 에서 $s'$ 로 이동할 확률)
즉각적인 보상: $R_a(s,s')$ (행동 $a$ 를 취하고 $s$ 에서 $s'$ 로 이동한 후 받는 보상)

강화 학습의 목표는 에이전트가 누적 보상 또는 사용자 제공 강화 신호를 최대화하는 최적 (또는 거의 최적) 정책을 학습하는 것이다. 이는 동물 심리학의 강화 과정과 유사하다.

강화 학습 에이전트는 이산적인 시간 단계마다 환경과 상호작용하며, 상태와 보상을 받고 행동을 선택한다. 목표는 기대 누적 보상을 최대화하는 정책을 학습하는 것이다. 문제는 에이전트가 환경 상태를 직접 관찰하는지(완전 관측 가능성), 일부만 관찰하거나 잡음이 섞인 상태를 관찰하는지(부분 관측 가능성)에 따라 다르게 공식화된다.

최적 행동 에이전트와의 성능 차이는 후회로 나타난다. 최적 행동을 위해 장기적 결과를 고려해야 하지만, 즉각적 보상은 부정적일 수 있다.

강화 학습은 장단기 보상 균형 문제에 적합하며, 다양한 분야에 적용된다. 특히 환경 모델이 알려져 있지만 해석적 해를 구하기 어렵거나, 시뮬레이션 모델만 있거나, 환경과 상호작용으로만 정보를 얻을 수 있을 때 유용하다. 또한 계획 문제를 기계 학습 문제로 변환하는 데 활용된다.

다음 표는 주요 강화 학습 알고리즘들을 비교한다.

알고리즘	설명	정책	행동 공간	상태 공간	연산자
몬테카를로	모든 방문 몬테카를로	오프정책 또는 온정책	이산형	이산형	상태-가치 또는 행동-가치의 표본 평균
TD 학습	상태-행동-보상-상태	오프정책	이산형	이산형	상태-가치
Q-학습	상태-행동-보상-상태	오프정책	이산형	이산형	행동-가치
SARSA	상태-행동-보상-상태-행동	온정책	이산형	이산형	행동-가치
DQN	심층 Q 네트워크	오프정책	이산형	연속형	행동-가치
DDPG	심층 결정적 정책 경사(Deep Deterministic Policy Gradient)	오프정책	연속형	연속형	행동-가치
A3C	비동기적 이점 행위자-비평가 알고리즘(Asynchronous Advantage Actor-Critic Algorithm)	온정책	이산형	연속형	이점 (=행동-가치 - 상태-가치)
TRPO	신뢰 영역 정책 최적화(Trust Region Policy Optimization)	온정책	연속형 또는 이산형	연속형	이점
PPO	근접 정책 최적화(Proximal Policy Optimization)	온정책	연속형 또는 이산형	연속형	이점
TD3	쌍둥이 지연 심층 결정적 정책 경사(Twin Delayed Deep Deterministic Policy Gradient)	오프정책	연속형	연속형	행동-가치
SAC	소프트 행위자-비평가(Soft Actor-Critic)	오프정책	연속형	연속형	이점
DSAC^[41]^[42]^[43]	분포적 소프트 행위자 비평가(Distributional Soft Actor Critic)	오프정책	연속형	연속형	행동-가치 분포

알고리즘	설명	학습 전략 분리성	행동 공간	상태 공간	연산자 통계량
몬테카를로	순차 방문 몬테카를로 방법	어느 쪽도	이산	이산	상태 가치 또는 행동 가치의 표본 평균
TD 학습	상태-행동-보상-상태	온폴리시	이산	이산	상태 가치
Q 학습	상태-행동-보상-상태	오프폴리시	이산	이산	행동 가치
SARSA	상태-행동-보상-상태-행동	온폴리시	이산	이산	행동 가치
Q 학습(λ)	상태-행동-보상-적격성 추적 포함 상태	오프폴리시	이산	이산	행동 가치
SARSA(λ)	상태-행동-보상-상태-행동과 적격성 추적	온폴리시	이산	이산	행동 가치
DQN	딥 Q 네트워크	오프폴리시	이산	연속	행동 가치
DDPG	딥 결정론적 정책 경사	오프폴리시	연속	연속	행동 가치
A3C	비동기적 이점 행위자-비평가 알고리즘	온폴리시	연속	연속	이점 (=행동 가치 - 상태 가치)
NAF	정규화 이점 함수 사용 Q 학습	오프폴리시	연속	연속	이점
TRPO	신뢰 영역 정책 최적화	온폴리시	연속	연속	이점
PPO	근위 정책 최적화	온폴리시	연속	연속	이점
TD3	쌍둥이 지연 딥 결정론적 정책 경사법	오프폴리시	연속	연속	행동 가치
SAC	소프트 액터-크리틱 방법	오프폴리시	연속	연속	이점
DSAC	분포 소프트 액터-크리틱 방법	오프폴리시	연속	연속	이점 분포

6. 1. 게임

강화 학습은 장기적 보상과 단기적 보상 사이의 균형을 고려해야 하는 문제에 적합하다. 로봇 제어, 통신망, 백개먼, 체스 등의 게임에 성공적으로 적용되어 왔다.^[4] 특히, 바둑 게임에서 알파고는 강화 학습을 통해 인간을 능가하는 성능을 보여주었다.

최근에는 스타크래프트 II, Dota 2와 같이 복잡한 전략 게임에도 강화 학습이 적용되고 있다.

6. 2. 로봇 공학

강화 학습은 로봇 제어에 성공적으로 적용되어 왔다.^[7] 강화 학습은 장기적인 보상과 단기적인 보상 사이의 균형을 맞추는 문제에 특히 적합하기 때문이다.

6. 3. 자율 주행

강화 학습은 장기적 보상과 단기적 보상 사이의 균형을 필요로 하는 문제에 적합하며, 자율 주행 시스템에 성공적으로 적용되었다.^[9] 자율 주행에서 강화 학습은 경로 계획, 차선 변경, 속도 조절 등 다양한 작업에 활용된다.

6. 4. 기타 응용 분야

강화 학습은 장기적인 보상과 단기적인 보상 사이의 균형을 고려해야 하는 문제에 적합하다. 이는 로봇 제어, 엘리베이터 스케줄링, 통신망, 백개먼, 체스와 같은 게임에 성공적으로 적용되었다.^[4]^[5] 또한, 에너지 저장,^[6] 태양광 발전기,^[8] 자율 주행 시스템^[9] 등에도 활용된다.

7. 강화 학습의 한계와 과제

강화 학습은 게임 이론, 제어 이론 등 여러 분야에서 연구되고 있지만, 몇 가지 한계와 과제를 안고 있다. 강화 학습은 기본적으로 마르코프 결정 과정으로 모델링되며, 에이전트는 특정 상태에서 특정 행동을 했을 때의 전이 확률과 즉각적인 보상을 바탕으로 누적 보상을 최대화하는 정책을 학습한다. 이는 동물 심리학의 강화 과정과 유사하며, 생물학적 뇌가 긍정적/부정적 강화를 통해 행동을 학습하는 것과 비슷하다.^[4]^[5]

강화 학습은 장기적인 보상과 단기적인 보상 사이의 균형을 맞추는 문제에 적합하며, 에너지 저장,^[6] 로봇 제어,^[7] 태양광 발전기,^[8] 백개먼, 체커, 바둑(알파고), 자율 주행 시스템^[9] 등 다양한 분야에 성공적으로 적용되었다. 특히, 환경의 모델을 알 수 없거나 시뮬레이션 모델만 제공되는 경우, 또는 환경과의 상호작용을 통해서만 정보를 얻을 수 있는 경우에 유용하다.

하지만, 강화 학습의 효율적인 탐색 문제는 여전히 연구 과제로 남아있으며, 많은 알고리즘의 성능 경계가 느슨하다는 한계가 있다. 또한, 증분 알고리즘의 점근적 수렴 문제는 해결되었지만, 시간차 기반 알고리즘은 더 넓은 조건에서 수렴하는 경향이 있다.

현재 주요 연구 주제는 다음과 같다:

액터-크리틱 구조^[27] 및 액터-크리틱-배경 구조^[3]
적응형 방법, 소프트웨어 버그 탐지,^[28] 지속적인 학습
논리 기반 프레임워크와의 결합,^[29] 인간 피드백,^[30] 내적 동기
대규모/모듈식/계층적 강화 학습,^[31] 다중 에이전트/분산 강화 학습^[32]
거주자 중심 제어, 컴퓨팅 자원 최적화,^[33]^[34]^[35] 부분 정보,^[36]^[37]^[38] 표본 기반 계획, 증권 거래,^[39] 전이 학습^[40]
뇌의 도파민 기반 학습 모델링, 가치 함수 및 정책 탐색 방법

역강화 학습(Inverse Reinforcement Learning, IRL)은 주어진 보상 함수 없이 전문가의 행동을 통해 보상 함수를 추론하는 방식으로, 관찰된 행동을 모방하는 데 사용된다.^[118]

7. 1. 샘플 효율성 (Sample Efficiency)

많은 강화 학습 알고리즘은 충분한 성능을 얻기 위해 방대한 양의 데이터를 필요로 한다.

7. 2. 안전성 (Safety)

강화 학습을 실제 환경에 적용할 때 안전 문제가 발생할 수 있다. 안전 강화 학습(Safe Reinforcement Learning, SRL)은 학습 및/또는 배포 과정에서 합리적인 시스템 성능을 보장하고/하거나 안전 제약 조건을 준수하는 것이 중요한 문제에서 수익의 기댓값을 극대화하는 정책을 학습하는 과정으로 정의할 수 있다.^[56] 위험 회피 강화 학습은 '기대 수익' 대신 조건부 위험가치(CVaR)와 같은 수익의 '위험 척도'를 최적화하는 대안적인 접근 방식이다.^[57] CVaR 목표는 위험 완화 외에도 모델 불확실성에 대한 강건성을 높인다.^[58]^[59] 그러나 위험 회피 RL에서 CVaR 최적화는 기울기 편향^[60]과 성공에 대한 무관심^[61]을 방지하기 위해 특별한 주의가 필요하다.

7. 3. 일반화 성능 (Generalization)

훈련 환경에서 학습된 강화 학습 모델이 훈련 환경과 다른, 새로운 환경에서도 잘 작동하는 것은 어려운 과제이다.^[53]^[54]^[55]

7. 4. 편향과 공정성 (Bias and Fairness)

강화 학습 알고리즘은 사회적으로 편향된 결정을 내릴 수 있는데, 이는 주로 단기적인 행동이 장기적인 결과에 미치는 영향을 고려하지 않는 근시안적인 모델에 초점을 맞추기 때문이다.^[68] 예를 들어, 채용, 대출, 입학 과정에 강화 학습을 적용할 때 특정 집단을 걸러내는 방식으로 불공정이 발생할 수 있다.^[68] 공정성 제약 조건에 대한 고려 없이 강화 학습 시스템이 내리는 결정은 비윤리적이고 해로울 수 있다.^[69]
채용, 대출, 입학 과정에서의 강화 학습 편향 예시

분야	단기적 목표	장기적 결과 및 문제점
채용	단기 생산성 향상	특정 인구 통계 집단(예: 잘 알려진 대학 출신) 선호, 다양성 부족, 잠재력 있는 후보자 배제
대출	단기 위험 평가	특정 집단(예: 저소득층)에 불이익, 장기적인 신용도 간과, 사회적 불평등 심화
입학	과거 성공 지표 기반 선발	특정 집단(예: 부유한 가정 출신) 선호, 다양성 부족, 잠재력 있는 학생 배제, 기관 경쟁력 약화

채용: 기업은 단기 생산성 향상을 위해 특정 인구 통계 집단의 지원자를 선호할 수 있지만, 이는 장기적으로 기여할 수 있는 다양한 후보자를 배제할 수 있다.
대출: 단기적인 위험 평가에만 기반을 둔 강화 학습은 특정 집단을 불리하게 만들 수 있다. 예를 들어, 정부의 대출 시스템이 돈을 갚을 능력만 고려하면 가장 도움이 필요한 사람들이 대출을 받지 못할 수 있다.^[68]
입학: 대학 입학 전략이 과거 성공 지표와 일치하는 지원자에게만 초점을 맞추면 소외된 배경을 가진 잠재적인 학생들을 놓칠 수 있으며, 이는 장기적인 다양성과 기관의 강점에 영향을 미칠 수 있다.^[68]

이러한 경우 공정성은 장기적인 보상이 더 높지 않는 한 알고리즘이 한 행동을 다른 행동보다 선호해서는 안 된다는 것을 요구한다.^[68]

훈련 데이터 세트가 서로 다른 집단의 사람들이 작업 능력에 현저한 차이가 있음을 보여주는 경우, 강화 학습 시스템은 특정 집단의 사람들을 소외시킬 수도 있다. 예를 들어, 소수 민족 사람들이 만든 비디오가 추천 시스템에 나타날 가능성이 낮을 수 있다.^[71]

이러한 문제를 해결하기 위해, 연구에서는 다중 에이전트 강화 학습을 권장하기도 한다.^[71]

8. 결론

강화 학습은 게임 이론, 제어 이론, 작전 연구, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 스웜 인텔리전스, 통계학 등 여러 분야에서 연구되고 있다. 작전 연구 및 제어 분야에서는 강화 학습을 ''근사 동적 계획법'' 또는 ''신경 동적 계획법''이라고도 부른다. 강화 학습은 최적 제어 이론에서도 연구되었는데, 주로 최적 해의 존재와 특성, 그리고 정확한 계산을 위한 알고리즘에 관심을 두고 학습이나 근사에는 덜 관심을 둔다.^[4]^[5]

강화 학습은 에너지 저장,^[6] 로봇 제어,^[7] 태양광 발전기,^[8] 백개먼, 체커, 바둑(알파고), 자율 주행 시스템^[9] 등 다양한 문제에 성공적으로 적용되었다.

강화 학습을 강력하게 만드는 두 가지 요소는 성능 최적화를 위한 표본의 사용과 대규모 환경 처리를 위한 함수 근사의 사용이다. 이 두 가지 주요 구성 요소 덕분에 강화 학습은 다음과 같은 상황에서 대규모 환경에 사용될 수 있다.

환경의 모델은 알려져 있지만 해석적 해는 사용할 수 없다.
환경의 시뮬레이션 모델만 제공된다(시뮬레이션 기반 최적화).^[10]
환경에 대한 정보를 수집하는 유일한 방법은 환경과 상호 작용하는 것이다.

처음 두 가지 문제는 계획 문제로, 마지막 문제는 학습 문제로 간주될 수 있지만, 강화 학습은 이들 모두를 기계 학습 문제로 변환한다.

참조

_[1] 논문 Reinforcement Learning: A Survey http://www.cs.washin[...]
_[2] 서적 Reinforcement Learning
_[3] 서적 Reinforcement Learning for Sequential Decision and Optimal Control https://link.springe[...] 2023
_[4] 서적 Artificial intelligence : a modern approach 2010
_[5] 논문 Neural Basis of Reinforcement Learning and Decision Making 2012-07-21
_[6] 논문 Community energy storage operation via reinforcement learning with eligibility traces 2022
_[7] arXiv ALLSTEPS: Curriculum-driven Learning of Stepping Stone Skills 2020
_[8] 논문 Optimal dispatch of PV inverters in unbalanced distribution systems using Reinforcement Learning 2022
_[9] 논문 Self-Learned Intelligence for Integrated Decision and Control of Automated Vehicles at Signalized Intersections https://ieeexplore.i[...] 2022
_[10] 서적 Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement https://www.springer[...] Springer
_[11] 논문 Optimal adaptive policies for Markov Decision Processes
_[12] 간행물 KI 2011: Advances in Artificial Intelligence Springer
_[13] 웹사이트 Reinforcement learning: An introduction http://people.inf.el[...] 2017-07-23
_[14] 논문 Reinforcement learning with replacing eligibility traces https://link.springe[...] 1996-03-01
_[15] 논문 Temporal Credit Assignment in Reinforcement Learning http://incompleteide[...] University of Massachusetts, Amherst, MA 2017-03-29
_[16] 논문 Learning to predict by the method of temporal differences
_[17] 논문 Learning from Delayed Rewards http://www.cs.rhul.a[...] King’s College, Cambridge, UK
_[18] 논문 Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities
_[19] 학회 A class of gradient-estimating algorithms for reinforcement learning in neural networks
_[20] 학회 Reinforcement Learning for Humanoid Robotics http://www-clmc.usc.[...]
_[21] 웹사이트 Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C) https://medium.com/e[...] 2018-02-22
_[22] 서적 A Survey on Policy Search for Robotics http://eprints.linco[...] NOW Publishers
_[23] 학회 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
_[24] 학회 Self-improving reactive agents based on reinforcement learning, planning and teaching https://link.springe[...]
_[25] 서적 Chapter 7 - Meta-reinforcement learning https://www.scienced[...] Academic Press 2023-11-08
_[26] 학회 When to use parametric models in reinforcement learning? https://proceedings.[...]
_[27] 논문 Efficient Model Learning Methods for Actor–Critic Control https://dl.acm.org/d[...] 2012-06-01
_[28] 웹사이트 On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment https://cie.acm.org/[...] 2018-11-27
_[29] 논문 A probabilistic argumentation framework for reinforcement learning agents 2019
_[30] arXiv Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills 2021-11-16
_[31] 논문 Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation http://dl.acm.org/ci[...] Curran Associates Inc. 2016
_[32] 웹사이트 Reinforcement Learning / Successes of Reinforcement Learning http://umichrl.pbwor[...] 2017-08-06
_[33] 학회 2020 Design, Automation & Test in Europe Conference & Exhibition (DATE) http://repository.es[...] 2020-03
_[34] 웹사이트 Smartphones get smarter with Essex innovation https://www.business[...] 2021-06-17
_[35] 웹사이트 Future smartphones 'will prolong their own battery life by monitoring owners' behaviour' https://inews.co.uk/[...] 2021-06-17
_[36] 논문 Maximizing Learning Progress: An Internal Reward System for Development Springer
_[37] 논문 Keep your options open: an information-based driving principle for sensorimotor systems
_[38] 서적 Intrinsically Motivated Learning in Natural and Artificial Systems https://people.cs.um[...] Springer
_[39] 논문 Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks 2020
_[40] 논문 Self-organizing maps for storage and transfer of knowledge in reinforcement learning 2019
_[41] 논문 Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors https://ieeexplore.i[...]
_[42] 논문 Improving Generalization of Reinforcement Learning with Minimax Distributional Soft Actor-Critic
_[43] 논문 DSAC-T: Distributional Soft Actor-Critic with Three Refinements 2023-10-26
_[44] 서적 Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series John Wiley & Sons, Inc 1992-05-06
_[45] 논문 An Introduction to Deep Reinforcement Learning
_[46] 논문 Human-level control through deep reinforcement learning
_[47] 논문 Explaining and Harnessing Adversarial Examples 2015
_[48] 서적 Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks 2017
_[49] 서적 Adversarial Attacks on Neural Network Policies http://worldcat.org/[...] 2017-02-07
_[50] 논문 Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs. 2022
_[51] 서적 Fuzzy Q-learning: a new approach for fuzzy dynamic programming IEEE 1994
_[52] 서적 Fuzzy rule interpolation and reinforcement learning IEEE 2017
_[53] 서적 Algorithms for Inverse Reinforcement Learning
_[54] 논문 Maximum entropy inverse reinforcement learning https://dl.acm.org/d[...] AAAI Press 2008-07-13
_[55] 논문 Trajectory modeling via random utility inverse reinforcement learning https://doi.org/10.1[...] 2024-03
_[56] 논문 A comprehensive survey on safe reinforcement learning https://jmlr.org/pap[...] 2015-01-01
_[57] 논문 Implicit Quantile Networks for Distributional Reinforcement Learning https://proceedings.[...] PMLR 2018-07-03
_[58] 논문 Risk-Sensitive and Robust Decision-Making: a CVaR Optimization Approach https://proceedings.[...] Curran Associates, Inc. 2015
_[59] 웹사이트 Train Hard, Fight Easy: Robust Meta Reinforcement Learning https://scholar.goog[...] 2024-06-21
_[60] 논문 Optimizing the CVaR via Sampling https://ojs.aaai.org[...] 2015-02-21
_[61] 논문 Efficient Risk-Averse Reinforcement Learning https://proceedings.[...] 2022-12-06
_[62] 서적 A self-learning system using secondary reinforcement
_[63] 간행물 Neuro genetic agents and structural theory of self-reinforcement learning systems https://web.cs.umass[...] University of Massachusetts at Amherst
_[64] 논문 Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981.
_[65] 논문 Implementation Matters in Deep RL: A Case Study on PPO and TRPO https://openreview.n[...] 2019-09-25
_[66] 논문 A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms https://openreview.n[...] 2019-03-06
_[67] 논문 Detecting Rewards Deterioration in Episodic Reinforcement Learning https://proceedings.[...] PMLR 2021-07-01
_[68] 논문 Fairness in Reinforcement Learning 2016-11-09
_[69] 논문 Fairness in Reinforcement Learning: A Survey 2024-05-11
_[70] 논문 Fairness-Sensitive Policy-Gradient Reinforcement Learning for Reducing Bias in Robotic Assistance 2023-06-07
_[71] 논문 Fairness in Reinforcement Learning: A Survey 2024-05-11
_[72] 학술지 Balancing Between Accuracy and Fairness for Interactive Recommendation with Reinforcement Learning https://link.springe[...] 2020-05-06
_[73] 학술지 Reinforcement Learning: A Survey http://www.cs.washin[...]
_[74] 서적 Reinforcement learning and markov decision processes
_[75] 서적 Artificial intelligence : a modern approach 2010
_[76] 학술지 Neural Basis of Reinforcement Learning and Decision Making 2012-07-21
_[77] 간행물 ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills https://arxiv.org/pd[...]
_[78] 서적 Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement https://www.springer[...] Springer
_[79] 논문 Optimal adaptive policies for Markov Decision Processes
_[80] 논문 KI 2011: Advances in Artificial Intelligence Springer
_[81] 웹사이트 Reinforcement learning: An introduction http://people.inf.el[...] 2023-05-12
_[82] 논문 Temporal Credit Assignment in Reinforcement Learning http://incompleteide[...] University of Massachusetts, Amherst, MA
_[83] 학술지 Learning to predict by the method of temporal differences
_[84] 논문 Learning from Delayed Rewards http://www.cs.rhul.a[...] King’s College, Cambridge, UK
_[85] 학술지 Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities
_[86] 학회 A class of gradient-estimating algorithms for reinforcement learning in neural networks
_[87] 학회 Reinforcement Learning for Humanoid Robotics http://www-clmc.usc.[...]
_[88] 웹사이트 Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C) https://medium.com/e[...] 2016-12-17
_[89] 서적 A Survey on Policy Search for Robotics http://eprints.linco[...] NOW Publishers
_[90] 학회 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
_[91] 학회 Self-improving reactive agents based on reinforcement learning, planning and teaching https://link.springe[...]
_[92] 학회 When to use parametric models in reinforcement learning? https://proceedings.[...]
_[93] 웹사이트 05mm029.pdf http://www.st.nanzan[...] 남산大学（情報理工学部・数理情報学部） 2024-11-23
_[94] 웹사이트 https://arxiv.org/pd[...]
_[95] 웹사이트 On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment https://cie.acm.org/[...] 2018-11-27
_[96] 학술지 A probabilistic argumentation framework for reinforcement learning agents 2019
_[97] 논문 Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills 2021-11-16
_[98] 학술지 Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation http://dl.acm.org/ci[...] Curran Associates Inc. 2016
_[99] 웹사이트 Reinforcement Learning / Successes of Reinforcement Learning http://umichrl.pbwor[...] 2017-08-06
_[100] 웹사이트 Smartphones get smarter with Essex innovation https://www.business[...] 2021-06-17
_[101] 학술지 User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs https://ieeexplore.i[...] 2020-03-01
_[102] 웹사이트 Future smartphones 'will prolong their own battery life by monitoring owners' behaviour' https://inews.co.uk/[...] 2021-06-17
_[103] 서적 Embodied Artificial Intelligence Springer
_[104] 학술지 Keep your options open: an information-based driving principle for sensorimotor systems
_[105] 서적 Intrinsically Motivated Learning in Natural and Artificial Systems https://people.cs.um[...] Springer
_[106] 논문 Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks 2020
_[107] 논문 Self-organizing maps for storage and transfer of knowledge in reinforcement learning 2019
_[108] pdf https://www.ipsj.or.[...]
_[109] 서적 Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series John Wiley & Sons, Inc 1992-05-06
_[110] 논문 An Introduction to Deep Reinforcement Learning 2018
_[111] 논문 Human-level control through deep reinforcement learning https://www.semantic[...] 2015
_[112] 논문 Explaining and Harnessing Adversarial Examples 2015
_[113] 논문 Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks 2017
_[114] 서적 Adversarial Attacks on Neural Network Policies http://worldcat.org/[...] 2017-02-07
_[115] 논문 Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs. 2022
_[116] 논문 Fuzzy Q-learning: a new approach for fuzzy dynamic programming https://ieeexplore.i[...] IEEE 1994
_[117] 서적 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) IEEE 2017
_[118] 서적 Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning
_[119] 논문 A comprehensive survey on safe reinforcement learning https://jmlr.org/pap[...] 2015-01-01
_[120] 서적 Reinforcement Learning and Markov Decision Processes https://link.springe[...] Springer, Berlin, Heidelberg 2012
_[121] 논문 Reinforcement Learning: A Survey http://dx.doi.org/10[...] 1996

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com